Du corpus au dictionnaire
نویسندگان
چکیده
In this article, we propose an automatic process to build multi-lingual lexico-semantic resources. The goal of these resources is to browse semantically textual information contained in texts of different languages. This method uses a mathematical model called Atlas sémantiques in order to represent the different senses of each word. It uses the linguistic relations Cahiers de Linguistique, 33(1), pp. 63–84. 1 Bernard Jacquemin et Sabine Ploux (2008). Du corpus au dictionnaire between words to create graphs that are projected into a semantic space. These projections constitute semantic maps that denote the sense trends of each given word. This model is fed with syntactic relations between words extracted from a corpus. Therefore, the lexico-semantic resource produced describes all the words and all their meanings observed in the corpus. The sense trends are expressed by syntactic contexts, typical for a given meaning. The link between each sense trend and the utterances used to build the sense trend are also stored in an index. Thus all the instances of a word in a particular sense are linked and can be browsed easily. And by using several corpora of different languages, several resources are built that correspond with each other through languages. It makes it possible to browse information through languages thanks to syntactic contexts translations (even if some of them are partial).
منابع مشابه
A Methodology for semi-automatic structuring of a bilingual lexicographical corpus: the French-Kabyle case (Méthodologie pour la structuration semi-automatique du corpus dans une perspective de traitement automatique des langues : le cas du dictionnaire français-kabyle) [in French]
Résumé L’objectif de cette contribution est de proposer une méthodologie nouvelle de structuration de corpus à l’aide d’outils informatiques récents permettant aux linguistes non-spécialistes en informatique de constituer des corpus structurés en vue de leur exploration par des outils de traitement automatique des langues naturelles. Il s’agit, plus exactement, de présenter le processus d’infor...
متن کاملEtude et Evaluation de la Di-Syllabe comme Unité Acoustique pour le Système de Synthèse Arabe PARADIS
Létude que nous présentons dans cet article sinscrit dans le cadre de la réalisation dun système de synthèse de la parole à partir du texte pour la langue arabe. Notre système PARADIS est basé sur la concaténation des di-syllabes avec TD-PSOLA comme technique de synthèse. Nous présentons dans cet article lintérêt du choix de la di-syllabe comme unité de concaténation pour le synthétiseur et...
متن کاملAdaptation d'un système de reconnaissance d'entités nommées pour le français à l'anglais à moindre coût (Adapting a French Named Entity Recognition System to English with Minimal Costs) [in French]
RÉSUMÉ La portabilité entre les langues des systèmes de reconnaissance d’entités nommées est coûteuse en termes de temps et de connaissances linguistiques requises. L’adaptation des systèmes symboliques souffrent du coût de développement de nouveaux lexiques et de la mise à jour des règles contextuelles. D’un autre côté, l’adaptation des systèmes statistiques se heurtent au problème du coût de ...
متن کاملLes Triggers Inter-langues pour la Traduction Automatique Statistique. (Inter-lingual Triggers for Statistical Machine Translation)
Dans cet article, nous décrivons le concept de triggers inter-langues. Nous expliquons ensuite comment nous avons utilisé de tels triggers pour construire automatiquement un dictionnaire bilingue. Nous avons par la suite évalué notre dictionnaire bilingue en le comparant à deux dictionnaires existants, le premier fourni par ELRA et le second en libre accès sur Internet. Cependant, afin de rendr...
متن کاملExploitation de dictionnaires électroniques pour la désambiguïsation sémantique lexicale
RÉSUMÉ. Cet article présente un système de désambiguïsation lexicale sémantique, conçu initialement pour l’anglais et à présent adapté à la désambiguïsation du français. La méthodologie développée repose sur l’utilisation d’un dictionnaire électronique comme un corpus sémantiquement étiqueté afin d’en extraire une base de règles de désambiguïsation sémantique. Ces règles permettent d’associer à...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- CoRR
دوره abs/0901.3990 شماره
صفحات -
تاریخ انتشار 2009